Introducción a la programación con Triton: De operadores estrictos a paralelismo basado en bloques

Transición desde Modo estricto de PyTorch a Triton requiere un cambio de perspectiva: en lugar de ver tensores como objetos monolíticos, hay que verlos como colecciones de bloques discretos y manejables bloques o ladrillos.

1. Tensores de PyTorch frente a Triton

Es fundamental distinguir tensores de Triton de tensores de PyTorch. Un tensor de PyTorch es un objeto Python del lado del host que encapsula forma, tipo de datos, dispositivo, desplazamientos y metadatos de almacenamiento. En contraste, Triton trabaja con los punteros de datos sin procesar dentro de bloques de memoria específicos, lo que permite una optimización de nivel mucho más bajo.

2. El cuello de botella del modo estricto

En la ejecución estándar estricta, cada operación (por ejemplo, suma seguida de ReLU) requiere un lanzamiento independiente del kernel y un viaje de ida y vuelta a la memoria global. Este es el cuello de botella principal en la computación moderna con GPU. Triton supera esto mediante fusionar operaciones dentro de un solo kernel que procesa bloques de datos (por ejemplo, 128, 256 o 512 elementos) directamente en la memoria integrada.

3. El paradigma basado en bloques

En lugar del pensamiento a nivel escalar de los hilos de CUDA, Triton utiliza SPMD (Programa único, múltiples datos) a nivel de bloque. Escribes un solo kernel, y Triton lanza múltiples instancias a través de una cuadrícula. Cada instancia usa su program_id para calcular qué "trozo" de memoria posee.

4. Configuración del entorno

Para comenzar, instala Triton en un entorno limpio (usando Conda o venv) para asegurar que no haya conflictos de dependencias con las herramientas CUDA existentes: pip install triton.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

What is the primary difference between a PyTorch tensor and a Triton tensor within a kernel?

Triton tensors contain Python metadata like strides; PyTorch tensors are raw pointers.

A PyTorch tensor is a host-side object wrapping metadata; a Triton tensor represents blocks of data processed at the compiler level.

There is no difference; they are the same object.

Triton tensors are stored on the CPU, while PyTorch tensors are on the GPU.

QUESTION 2

Why is 'Eager Mode' considered a bottleneck for modern GPU performance?

Because it uses too much CPU memory.

Every operation requires a separate kernel launch and a global memory round-trip.

It cannot handle floating-point numbers.

It lacks support for the Python language.

QUESTION 3

What is the result of installing Triton in a 'dirty' environment with conflicting CUDA toolkits?

Triton will automatically fix the CUDA path.

It may lead to library version mismatches and kernel compilation errors.

The GPU will run faster due to multiple toolkit options.

Triton does not use CUDA, so there is no conflict.

QUESTION 4

Draw the mapping from pid to index range for N=1000, BLOCK_SIZE=256.

pid 0: [0, 256); pid 1: [256, 512); pid 2: [512, 768); pid 3: [768, 1000)

pid 0: [0, 1000)

pid 0: [0, 256); pid 1: [257, 512); pid 2: [513, 768); pid 3: [769, 1000)

pid 1: [0, 256); pid 2: [256, 512); pid 3: [512, 768); pid 4: [768, 1000)

QUESTION 5

In block-based parallelism, the instruction shift moves from 'compute one element' to:

'Compute one entire tensor'.

'Compute one block of 128/256/512 elements'.

'Compute one scalar at a time'.

'Let the CPU handle the math'.